Feature compensation based on the normalization of vocal tract length for the improvement of emotion-affected speech recognition

نویسندگان

چکیده

Abstract The performance of speech recognition systems trained with neutral utterances degrades significantly when these are tested emotional speech. Since everybody can speak emotionally in the real-world environment, it is necessary to take account states automatic system. Limited works have been performed field emotion-affected and so far, most researches focused on classification emotions. In this paper, vocal tract length normalization method employed enhance robustness For purpose, two structures system based hybrids hidden Markov model Gaussian mixture deep neural network used. To achieve goal, frequency warping applied filterbank and/or discrete-cosine transform domain(s) feature extraction process conducted a way normalize components make them close their corresponding components. proposed evaluated neutrally trained/emotionally conditions for different features (i.e., Anger , Disgust Fear Happy Sad ). system, acoustical features. constructed Kaldi Persian database crowd-sourced multi-modal actors dataset as input corpora. experimental simulations reveal that, general, warped result better compared unwarped counterparts. Also, be seen that using network-hidden outperforms employing hybrid model.

برای دانلود باید عضویت طلایی داشته باشید

برای دانلود متن کامل این مقاله و بیش از 32 میلیون مقاله دیگر ابتدا ثبت نام کنید

اگر عضو سایت هستید لطفا وارد حساب کاربری خود شوید

منابع مشابه

application of upfc based on svpwm for power quality improvement

در سالهای اخیر،اختلالات کیفیت توان مهمترین موضوع می باشد که محققان زیادی را برای پیدا کردن راه حلی برای حل آن علاقه مند ساخته است.امروزه کیفیت توان در سیستم قدرت برای مراکز صنعتی،تجاری وکاربردهای بیمارستانی مسئله مهمی می باشد.مشکل ولتاژمثل شرایط افت ولتاژواضافه جریان ناشی از اتصال کوتاه مدار یا وقوع خطا در سیستم بیشتر مورد توجه می باشد. برای مطالعه افت ولتاژ واضافه جریان،محققان زیادی کار کرده ...

15 صفحه اول

Vocal Tract Length Normalization for Large Vocabulary Continuous Speech Recognition

Generally speaking, the speaker-dependence of a speech recognition system stems from speaker-dependent speech feature. The variation of vocal tract length and/or shape is one of the major source of inter-speaker variations. In this paper, we address several methods of vocal tract length normalization (VTLN) for large vocabulary continuous speech recognition: (1) explore the bilinear warping VTL...

متن کامل

developing a pattern based on speech acts and language functions for developing materials for the course “ the study of islamic texts translation”

هدف پژوهش حاضر ارائه ی الگویی بر اساس کنش گفتار و کارکرد زبان برای تدوین مطالب درس "بررسی آثار ترجمه شده ی اسلامی" می باشد. در الگوی جدید، جهت تدوین مطالب بهتر و جذاب تر، بر خلاف کتاب-های موجود، از مدل های سطوح گفتارِ آستین (1962)، گروه بندی عملکردهای گفتارِ سرل (1976) و کارکرد زبانیِ هالیدی (1978) بهره جسته شده است. برای این منظور، 57 آیه ی شریفه، به صورت تصادفی از بخش-های مختلف قرآن انتخاب گردید...

15 صفحه اول

the effect of a selfregulatory approach on the improvement of efl learners listening comprehension

تاثیر آموزش مهارت خود محوری بر روی ارتقاء مهارت شنیداری زبان آموزان هدف این پژوهش بررسی عوامل موثر در ارتقا مهارت شنیداری زبان آموزان ایرانی بود. در مرحله اول این تحقیق پژوهشگر پس از انجام مصاحبه نود زبان آموز را با استفاده از تست ایلتس انتخاب شدند. برای بررسی عوامل عوامل موثر در ارتقا مهارت شنیداری زبان آموزان ایرانی از دو نوع فیلم ویرایش شده و ویرایش نشده استفاده گردید.برای انجام تح...

Dynamic Vocal Tract Length Normalization in Speech Recognition

A novel method to account for dynamic speaker characteristic properties in a speech recognition system is presented. The estimated trajectory of a property can be constrained to be constant or to have a limited rate-of-change within a phone or a sub-phone state. The constraints are implemented by extending each state in the trained Hidden Markov Model by a number of property-value-specific sub-...

متن کامل

ذخیره در منابع من


  با ذخیره ی این منبع در منابع من، دسترسی به آن را برای استفاده های بعدی آسان تر کنید

ژورنال

عنوان ژورنال: Eurasip Journal on Audio, Speech, and Music Processing

سال: 2021

ISSN: ['1687-4722', '1687-4714']

DOI: https://doi.org/10.1186/s13636-021-00216-5